蛋白组+三代全长转录组致力于肿瘤标志物的研究
Identification of differentially expressed splice variants by the proteogenomic pipeline Splicify
Splicify:一种鉴定差异表达剪接变体的蛋白组分析流程
2017 Oct;16(10):1850 -1863 IF=6.3
今天与大家分享的这篇关于肿瘤标志物研究的文章,内容比较多,分为引言、研究背景、实验设计、研究结果、讨论、研究结论、文章亮点7个部分,每一部分都做了详细的解读,各位看官可以视情况跳跃或选择性阅读,收藏后可以慢慢看。
Part1 引言
阳春三月,天地俱生,万物以荣,大地一片生机,人们在经过一个冬天的蛰伏后开始活动频繁。随着气温的升高,细菌、病毒也开始生长繁殖,因此,春天是疾病多发的季节。《黄帝内经》说:“是故圣人不治已病治未病”,寓意是要防病于未然,不要等病入膏肓了才四处求医。
肿瘤标志物是肿瘤细胞本身合成、分泌,或是机体对肿瘤反应而异常产生或表达异常的一类特异性物质,在肿瘤早期发现、诊断、治疗及预后判断中均起到非常重要的作用,这与中医“未病先防,既病防变”的治疗理念十分契合的。
目前,通过整合多组学数据在多个层面上鉴定肿瘤标致物的研究还比较少,下面我们通过荷兰科学家对结肠癌肿瘤标致物的研究成果,来了解一下将RNA-seq、Iso-seq及LC-MS/MS数据进行整合研究的思路。
Part2 研究背景
结直肠癌是荷兰最常见的第二种癌症,死亡率高,现以每年超过15000例患者的速度增长,大多数患者年龄在60-79岁之间。从腺瘤发展到结肠癌大概分为4个阶段,整个过程大约需要20-40年的时间,早期筛查对该病的预防和治疗至关重要。
通常人们会通过免疫法检测粪潜血的方式进行结直肠癌筛查,但是这种方法对病变前体即晚期腺瘤的检出率只有27%,灵敏度很低,所以目前临床上需要新的标志物来辅助结直肠癌的筛查。
人类转录组比基因组要复杂得多,这是因为约95%的多外显子转录本会进行选择性剪接。作为选择性剪接的结果,isoform被翻译成的蛋白质在结构、位置和功能上都会有所不同。相比于正常情况下产生的RNA剪接事件,异常剪接(aberrant splicing)可以导致疾病的发生,特别是肿瘤特异的异常剪接(tumor-sepecfic aberrant splicing)通常与该肿瘤的进展和转移有密切联系。因此,研究剪接变异(splice variant)可能会进一步揭示肿瘤的发生发展机制。
剪接因子在剪接调节和isoform表达中起着直接的作用。剪接因子不仅可以通过体细胞突变和异常表达产生致癌作用,还可以通过异常剪接产生致癌活性。SF3B1和SRSF1是癌症中最常见的突变剪接因子,乳腺癌和结肠癌中都有它们的参与。MYC是一个著名的致癌转录因子,通过激活SRSF1, 它可以影响SRSF1靶基因子集的选择性剪接,从而助于肿瘤的发展。
蛋白质异形体(protein isoforms)作为生物标志物具有很大的潜力,可以提高诊断的准确性。识别疾病特异的蛋白质异形体(disease-specific protein isoforms),能够发现更敏感、更特异的生物标记物。通过高深度的串联质谱测序可以在蛋白层面上研究蛋白质异形体,可以鉴定通过单核苷酸变异或异常剪接产生的新型变异蛋白。但目前受制于现有的蛋白质序列数据库,50%的质谱信息仍无法进行确定。构建蛋白数据库时补充RNA-seq的结果可以发现人类参考基因组注释中没有表示的新的剪接事件,使蛋白鉴定数目得到了很大提升。另外,通过RNA-seq也可以在转录组层面对可变剪接进行研究,但是转录组水平上的研究无法确定哪些isoforms翻译成了蛋白,而这一点对于弄清楚可变剪接可以导致什么结果及鉴定肿瘤蛋白分子标记物是至关重要的。所以将高深度的串联质谱测序和RNA-seq结合起来,既能得到丰富的蛋白质数据库提升蛋白鉴定数据,又能在转录组和蛋白组两个水平上对肿瘤特异的isoforms进行研究。
现有的蛋白组数据分析工具通常是为单个或一类样本分析而设计的,不具备在RNA和蛋白质水平上对患病组和对照组进行差异比较的灵活性。为了识别疾病特异的蛋白质异形体,需要使用一种工具来进行不同层面的分析。
本文提出了一种名为Splicify的肿瘤特异性蛋白质异形体(tumor-specific protein isoforms)的鉴定流程,其中,RNA-seq分析用于对isoform定量及差异分析;LC-MS/MS用于证明有哪些剪接isoform被翻译成了蛋白质;另外,通过Iso-seq鉴定Splicify得到isoforms,同时增加新的转录本信息。
Part3 实验设计
为了测试splicify这种蛋白组学数据的分析方法,建立了一种可以对isoform变化进行调控的实验模型,对SW480结肠癌细胞系中的剪接因子SF3B1和SRSF1进行siRNA干扰以下调其表达,然后通过RNA-seq和质谱进行结果检测。
RNA-seq及LC-MS/MS:
SW480结肠癌细胞系,siRNA 干扰剪接因子SF3B1和SRSF1及阴性对照siNT-treatedSW480细胞系。
SF3B1被siRNA转染48h,简写为siSF3B1;
SRSF1被siRNA转染72h,简写为siSRSF1。
RT-qPCR:
RT-qPCR用以检测SF3B1和SRSF1的敲低效率及用于评估ADD3、CTNND1、RAC1、SYK、MKI67和OSBPL3的可变剪接的效率。
全长转isoform测序Iso-Seq:
siSF3B1及对照组siNT-treatedSW480细胞系。
用RSII检测,文库片段0-1kbp, 1kbp-2kbp, 2kbp-3kbp and 3kbp-50kbp。
Splicify中的RNA-seq和LC-MS/MS分析:
(1)参考基因组版本为UCSChg19;差异剪接变异(differential splice variants )软件为rMATS version 3.2.5;显著性的筛选标准FDR≤0.05;
(2)isoforms分exclusion-isoforms和inclusion-isoforms两种类型(如下图1B所示)。
(3)剪接区域转化成氨基酸序列。
将得到的差异剪接变异以及剪接区域的氨基酸序列作为潜在的剪接变异的蛋白序列,和Uniprot数据库中人类蛋白数据一起形成一个更丰富的人类蛋白质数据库。
(4)通过MaxQuant 1.5.3.8软件进行蛋白鉴定。
(5)此外,人类标准蛋白质数据库(Swissprot, canonical,)被用来检测代表非标准isoform剪接变异。
splicify的原理概述及其检测模型:
Part4 研究结果
图1A中给出了splicify的原理概述,既鉴定不同剪接isoform的蛋白组数据分析流程
转录组学和蛋白组学分析的实验设计概述如下图2所示:
RT-qPCR检测显示经siRNA转染一定时间后SF3B1和SRSF1表达水平平均降低50%和40%;同时细胞活性检测表明SF3B1的下调使癌细胞存活率降低了10-30%(下调SRSF1细胞存活率的变化则不是很明显)。这些数据表明,在所建立的模型系统中,isofrm的产生可以得到调控,适合于测试splicify流程。
通过splicify鉴定差异RNA和蛋白isoform:
用RNA-seq和串联质谱分析了每个样品的蛋白质组和转录组。在RNA-seq数据分析中,通过对横跨exon-exon和exon-intron junction的reads,鉴定了isoforms,连同比对到剪接片段上的reads,进一步量化以区分两个条件之间的差异事件。在蛋白质组学数据分析当中,exon-exon和exon-intron junction覆盖肽段和比对到剪接片段上的肽段被用来证明RNA水平上检测出来的isoform被翻译成了蛋白质(图1 B)。这些肽的强度被用于定量,以确定差异表达的蛋白质的isoform。
siSF3B1和siSRSF1产生的差异mRNA isoform:
转录组分析显示siSF3B1和siSRSF1的可变剪接事件与对照组相比有显著差异(图3A),证明对剪接因子的操作导致了差异剪接的产生。
与SRSF1相比,选择性剪接受SF3B1的操作影响更大,因为受SF3B1调控的剪接事件更多,特别是对于外显子跳跃和互斥的外显子事件(图3A)。这可能是由于剪接因子在剪接体复合物中扮演的角色不同。
为了保证siSF3B1和siSRSF1对isoform的表达有功能上的影响,引入已研究过的结肠癌细胞中ADD3和CTNND1中的外显子跳跃作为其选择性剪接的阳性对照。后续对实验模型中的ADD3 exon 14和CTNND1 exon 20进行RT-qPCR检测的结果显示siSF3B1和siSRSF1确实对isoform的表达有功能上的影响。
为了进一步验证,作者选择了4个外显子跳跃事件进行RT-qPCR验证,包括SYK exon 7, RAC1 exon 4, OSBPL3 exon 9, MKI67 exon 7(如图4所示)。根据RNA-seq分析,所有的事件在SRSF1下调后都发生了差异剪接,而OSBPL3和MKI67则受SF3B1下调的影响。
siSF3B1和siSRSF1产生的差异蛋白isoform
在RNA水平上确定的所有重要剪接事件,包括inclusion 和exclusion变异,都被用于质谱鉴定的数据库构建(图1A)。为了证明这些剪接事件被翻译成蛋白质,作者搜索了isoform特异的肽段库(图1B)。
在siSF3B1和siSRSF1的差异剪接结果中,分别确定了5079和374个isoform特异肽段(如表1所示)。
肽段数量上的差别直接和两个实验剪接isoform数据库的数目相关。总的来说,大约60%的isoform特异肽段会比对到目标区域,跨越exon-econ junction的split 肽段约占40%,跨越 exon-intron junctions 的spanning肽段则很少被发现(如表2所示)。
基于所有的isoform特异肽段,siSF3B1和siSRSF1在蛋白水平上分别确定了2172和149个剪接事件(如表3所示)。
平均15%的剪接事件的肽段在属于同一事件的inclusion和exclusion isoform中被观察到。大多数的isoform都被认为是基于Swissprot规范序列数据库的标准蛋白质。大约5%和25%的鉴定isoform被归类为siSF3B1和siSRSF1的非标准亚型。肽段的一个子集比对到两个或更多的isoform,通常是由于不同的isoform之间的重叠的外显子导致的。相比于exclusion isoform,由于inclusion isoform的序列较长,因此确认率更高。在被确定的isoforms中,所有类别的选择性剪接事件都有所涉及,与RNA水平上的结果一致,外显子跳跃事件占的比例最大。从RNA和蛋白水平上剪接事件数目的比例看,互斥外显子更常被检测到(如图3B所示)。
这是由于互斥外显子的剪接结果中每一个isoform都含有一个额外的外显子,从而增加了整个片段的长度,也就增加了剪接区域的识别。虽然阳性对照ADD3和CTNND1并没有检测到特异肽段,但SYK、RAC1、OSBPL3和MKI67的外显子跳跃事件在肽水平上得到了验证。
通过对剪接特异肽段进行差异表达分析,揭示了这些肽的子集在实验组和对照组之间有显著差异,指出了mRNA基因组和蛋白质组结果之间的一致性事件(如表4所示)。
约65%的显著差异表达的splice-specific-peptides在RNA水平上表现出一致的表达差异。例如,下调SF3B1的实验组中,OSBPL3 9号外显子中分别有3个支持外显子保留和1个支持外显子去除的peptides被鉴定出来。两种inclusion specific-peptides表达明显较低,而exclusion specific -peptides则与对照相比表现出较高的表达量(如图5所示)。
另一个例子是siSRSF1中,由于RAC1基因中4号外显子的保留,Rac1b isoform的表达较低,这与当前SRSF1对结肠直肠癌中RAC1选择性剪接的影响是一致的,通过RNA-seq和RT-qPCR检测(如图4所示)。蛋白水平上,只有inclusion specific-peptides可以得到确认。虽然下调siSRSF1和对照之间的肽强度差异不显著,但log2 fold变化提示与RNA水平相似。
全长转录本的验证:
为了验证能通过splicify得到的isoform,同时增加新的转录本,Iso-seq被用于在SW480细胞中SF3B1的下调和siNT对照(如图2所示)的检测中。
通过Iso-Seq得的转录本替代人基因组注释被用作转录组变异的来源进行定性分析,同时可以通过对较短但更高密度的reads来进行定量分析。在RNA水平上,在每种剪接事件中,使用Iso-Seq数据确定的显著差异的isoforms数量超过了使用参考基因组注释法的结果(如图6A所示)。
illumina所测reads通过使用人类参考基因组注释及使用Iso-Seq所得全长转录本进行定量的结果有很大的重叠,从而验证选择性剪接事件的检测(如图6B所示)。
此外,Iso-Seq的测序结果揭示了一些由于参考基因组注释的缺乏没有检测到这些事件。其中最突出的就是内含子保留事件,可变剪接分析软件rMATS使用的是带注释的内含子保留的数据库,而不是基因组中的所有内含子。在蛋白水平上,大多数isoform特异性肽都可以通过两种方法鉴定,Iso-seq所测全长转录组本对于参考基因组的注释信息是一个很好的补充,增加了确定的isoform特异肽段的数量(如图6C所示)。
例如,全长转录本进行测序结果支持FXR1内含子保留的三种肽段,因此这种内含子保留事件也存在于注释文件中。Illumina 测到的短 reads支持这一事件,并提供了定量的证据,表明它在SF3B1的下调过程中比其对照组(图6D)更高表达。
这些数据表明,为了更全面地揭示差异剪接事件,我们应该提供丰富的注释文件,其中包括一些新的转录本,如转录本组装工具或全长转录序列。
Part5 讨论
Splicify的意义在于识别RNA水平和蛋白质水平上的isoform。通过对RNA和蛋白水平的对比分析证明该方法能够成功地识别特定条件下蛋白质水平上的异常剪接事件。
在研究可变剪接方面,Iso-Seq测到的全长转录本对基因组注释结果是一个极大补充,尤其在内含子保留、3 '可变剪接和5 '端可变剪接事件中,Iso-Seq测到的全长转录本与基因组注释的重叠较小。这表明,基因组注释中缺少一些完整的或部分的内含子序列可变剪接的isoform形式。
蛋白质水平上发现的一些非典型的isoform翻译成的蛋白质可能在与常规类型的蛋白的功能不同。比如,Rac1b,相比于常见的RAC1蛋白能够增强细胞存活能力。在不同的组织中,OSBPL3的isoform在RNA水平上表现出不同的表达,表明它们可能具有不同的功能。 基于RNA-seq数据检测到的少量的蛋白isoform揭示了目前蛋白质组学的研究难点。mRNA 水平上发现的isoform在蛋白质水平上没有识别出来可能有很多原因,包括生物和技术层面。首先,并非所有的异常的isoform都被翻译成蛋白质。另外,转录和翻译的动力学相关,特别是关于siRNA介导的下调制。同时,isoform个数少也可能是剪接区域的翻译后修饰的结果,例如磷酸化。还有一些技术上的问题限制了splice-specific peptides的鉴定,比如exclusion 变异。
所有这些问题都说明了RNA-seq相比于质谱分析对剪接片段的定量分析优势。异常的isoform通常比常规蛋白的表达量低,这进一步使isoform在蛋白质水平的分析变得复杂。在多个研究报告中,RNA与蛋白表达的相关性中,RNA和蛋白水平的表达差异有65%的一致性。然而,质谱可以确定哪些isoforms可以被翻译成蛋白质,使RNA水平上识别出的剪接isoform的功能更确定,并能在分子领域确定候选生物标志物以进行进一步研究。
Part6 研究结论
Splicify提供了一种蛋白组数据分析方法,可以用于确定由mRNA选择性剪接产生的疾病特异性蛋白生物标志物,适合用临床前模型系统来解决基础研究问题。其中剪接变异在RNA水平上的验证是通过RT-qPCR以及Iso-seq得到的全长转录本进行的;通过Iso-seq得到的全长转录本可以对新的剪接事件在蛋白层面上进行验证。
Part7 文章亮点
相比目前蛋白组数据分析,存在的问题:
1、许多生物信息学工具在得到质谱结果后缺乏自动友好的下游分析;
2、分析工具通常是为单个或一类样本分析而设计的,不具备在RNA和蛋白质水平上对病例和对照组进行差异比较的灵活性。
splicify作为一种基于整合RNA大规模并行测序数据和串联质谱蛋白质组学数据的分析方法其新颖性在于两组分子间选择性剪接的差异分析,可应用范围很广泛,如基因敲低与对照样品或癌症与健康样品间的比较。
转录调控事业部 张 琪 | 文案
吴戈宇 | 审核
图片来自网络,侵删